Basándonos en las gráficas y lo que hemos estudiado en nuestro curso de Estadística Inferencial, parece que las muestras no se ajustan a una distribución normal, debido a que:
El histograma presenta asimetría y un sesgo hacia la derecha, lo que sugiere una distribución no normal. Este patrón de desviación se refleja de manera consistente en los gráficos de densidad, proporcionando una indicación adicional de la falta de normalidad en los datos.”
Igualmente el grafico Q-Q muestra colas tanto izquierda como derechas, lo cual indica que hay valores por encima de los cuantiles -2 y 2, lo cual es otro indicio de la no normalidad de los datos
Teniendo en cuenta las graficas de la variable ‘lastActivity’ podemos inferir que:
Tanto el histograma como el gráfico de densidad exhiben un sesgo hacia la derecha, lo que indica una clara asimetría en la distribución de los datos y una cola más larga hacia los valores superiores, evidenciando que la distribución no es normal, afirmacion que es ratficada en el grafico Q-Q
Por otro lado, aunque el Boxplot no muestra valores atípicos, sí revela un sesgo hacia los valores altos de la variable.
Considerando las gráficas analizadas, se puede concluir que la variable ‘numberOfUser’ exhibe características distintivas:
Tanto el gráfico Q-Q como el Boxplot revelan la existencia de numerosos valores atípicos (outliers). Esta observación sugiere que los datos presentan una gran variabilidad y no se distribuyen normalmente, ya que los valores extremos afectan la normalidad de la distribución.
Además, el histograma y el gráfico de densidad muestran un sesgo notable hacia la izquierda. Este sesgo indica que hay una concentración significativa de valores en el extremo inferior de la escala, lo que contribuye aún más a la falta de normalidad en los datos.
En este análisis de la variable “type” en nuestro conjunto de datos, se identifico patrones y tendencias significativas que arrojan luz sobre la composicion de esta misma. Destaca en gran medida la presencia de la categoría “pl”,es decir, lenguaje de programacion que constituye la categoría dominante con una frecuencia absoluta de 1660 elementos, representando aproximadamente el 77.61% del conjunto lo cual nos dice su concurrencia en toda la base datos y lo importancia en la misma.
se observa una distribución diversa de países de origen entre los elementos de nuestro conjunto. Entre los países más representados, destacan Estados Unidos, Reino Unido y Canadá, que juntos conforman la mayoría de las entradas. Esto sugiere que nuestro conjunto de datos tiene una fuerte presencia de elementos relacionados con estas tres naciones.
La categoría más frecuente es “United States” (Estados Unidos), con una frecuencia absoluta de 1494, lo que representa aproximadamente el 69.85% del conjunto de datos en términos de procedencia geográfica. Le sigue “United Kingdom” (Reino Unido) con una frecuencia absoluta de 85 y “Canada” (Canadá) con 69.
Basado en los resultados de la tabla de frecuencia absoluta y relativa de la variable “website”, se puede concluir que la mayoría de los lenguajes de programación en nuestro conjunto de datos tienen un sitio web asociado. Específicamente, el 67.42% de los lenguajes de programación no tienen un sitio web, mientras que el 32.59% si lo tienen.
Esto sugiere que no hay tanta presencia de sitios web asociados a los lenguajes de programacion no es común entre los lenguajes de programación en el conjunto de datos. La existencia de sitios web puede ser un indicador de la accesibilidad y disponibilidad de información adicional sobre estos lenguajes, lo que puede ser valioso para los desarrolladores y la comunidad en general.
| Argentina | Australia | Austria | Belgium | Brazil | Canada | China | Czech Republic | Denmark | England | Finland | France | Germany | India | Israel | Italy | Japan | Netherlands | New Zealand | Norway | Poland | Russia | Scotland | Spain | Sweden | Switzerland | United Kingdom | United States | unknown | Unknown | Various | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| application | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 1 | 39 | 1 | 3 | 3 |
| binaryDataFormat | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 16 | 0 | 0 | 6 |
| database | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 2 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 17 | 0 | 0 | 0 |
| dataNotation | 0 | 1 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 2 | 3 | 25 | 0 | 0 | 1 |
| editor | 0 | 1 | 0 | 0 | 0 | 1 | 1 | 2 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 23 | 0 | 0 | 4 |
| esolang | 0 | 3 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 2 | 2 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 17 | 0 | 4 | 0 |
| grammarLanguage | 1 | 2 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 22 | 0 | 0 | 2 |
| library | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 11 | 0 | 0 | 4 |
| packageManager | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 18 | 0 | 2 | 4 |
| pl | 1 | 18 | 6 | 5 | 9 | 58 | 5 | 3 | 11 | 10 | 5 | 38 | 47 | 3 | 6 | 24 | 22 | 4 | 5 | 6 | 8 | 9 | 3 | 2 | 17 | 20 | 76 | 1147 | 0 | 58 | 34 |
| protocol | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 20 | 0 | 0 | 0 |
| queryLanguage | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 2 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 37 | 0 | 2 | 1 |
| template | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 1 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 18 | 0 | 1 | 4 |
| textDataFormat | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 2 | 17 | 0 | 2 | 1 |
| textMarkup | 0 | 1 | 0 | 1 | 0 | 3 | 0 | 1 | 0 | 0 | 0 | 1 | 3 | 0 | 0 | 0 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 38 | 0 | 4 | 2 |
| xmlFormat | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 29 | 0 | 0 | 1 |
| NO | YES | |
|---|---|---|
| Argentina | 0 | 3 |
| Australia | 18 | 8 |
| Austria | 5 | 1 |
| Belgium | 2 | 4 |
| Brazil | 5 | 5 |
| Canada | 39 | 30 |
| China | 3 | 3 |
| Czech Republic | 2 | 5 |
| Denmark | 8 | 3 |
| England | 10 | 5 |
| Finland | 3 | 4 |
| France | 29 | 13 |
| Germany | 45 | 18 |
| India | 0 | 5 |
| Israel | 5 | 2 |
| Italy | 17 | 7 |
| Japan | 18 | 5 |
| Netherlands | 3 | 3 |
| New Zealand | 5 | 0 |
| Norway | 6 | 2 |
| Poland | 6 | 4 |
| Russia | 2 | 7 |
| Scotland | 3 | 0 |
| Spain | 0 | 4 |
| Sweden | 11 | 7 |
| Switzerland | 19 | 4 |
| United Kingdom | 62 | 23 |
| United States | 1065 | 429 |
| unknown | 0 | 1 |
| Unknown | 31 | 45 |
| Various | 20 | 47 |
| NO | YES | |
|---|---|---|
| application | 23 | 28 |
| binaryDataFormat | 15 | 9 |
| database | 15 | 4 |
| dataNotation | 21 | 14 |
| editor | 16 | 18 |
| esolang | 18 | 16 |
| grammarLanguage | 21 | 11 |
| library | 1 | 16 |
| packageManager | 1 | 25 |
| pl | 1184 | 476 |
| protocol | 16 | 5 |
| queryLanguage | 27 | 17 |
| template | 12 | 17 |
| textDataFormat | 18 | 5 |
| textMarkup | 25 | 33 |
| xmlFormat | 29 | 3 |
Para la respuesta dada, se usó un script de R para la estimación del intervalo de confianza de la media poblacional, teniendo conocimiento de la desviación típica de la población de la variable appeared. Luego, para tener evidencia visual de los resultados, se generó un intervalo sobre un gráfico.
Podemos concluir que, con un nivel de confianza del 90%, la media poblacional del año de aparición de los lenguajes de programación de nuestra base de datos se encuentra entre los valores de 1996.05 y 1997.21.
Para la respuesta dada, se usó un script de R para la estimación del intervalo de confianza de la varianza y la desviación, teniendo conocimiento de la desviación típica de la población de la variable LASTACTIVITY. Luego, para tener evidencia visual de los resultados, se generó un intervalo sobre un gráfico para los dos estadísticos.
Podemos concluir que, con un nivel de confianza del 95%, la varianza poblacional del último año de modificación de las tecnologías informáticas de nuestra base de datos se encuentra entre los valores de 269.96 y 304.36.
Por otro lado, la desviación poblacional de la variable LASTACTIVITY podemos afirmar que se encuentra en un rango de 15.95 y 17.98 con un nivel de confianza del 95%.
Podemos concluir que con un nivel de confianza del 90% diferencia de las proporciones del tipo de lenguaje que mas se usaba en la epoca de nuestra base de datos se encuentra entre los valores de -0.1841 y -0.0686
En resumen, el intervalo de confianza indica que hay una diferencia significativa en las proporciones del tipo de lenguaje de programación entre los dos grupos, y esta diferencia sugiere que el tipo de lenguaje era más común en Estados Unidos que en el Reino Unido en la época de tu base de datos.